Current advances in recommender systems have been remarkably successful in optimizing immediate engagement. However, long-term user engagement, a more desirable performance metric, remains difficult to improve. Meanwhile, recent reinforcement learning (RL) algorithms have shown their effectiveness in a variety of long-term goal optimization tasks. For this reason, RL is widely considered as a promising framework for optimizing long-term user engagement in recommendation. Despite being a promising approach, the application of RL heavily relies on well-designed rewards, but designing rewards related to long-term user engagement is quite difficult. To mitigate the problem, we propose a novel paradigm, Preference-based Recommender systems (PrefRec), which allows RL recommender systems to learn from preferences about users' historical behaviors rather than explicitly defined rewards. Such preferences are easily accessible through techniques such as crowdsourcing, as they do not require any expert knowledge. With PrefRec, we can fully exploit the advantages of RL in optimizing long-term goals, while avoiding complex reward engineering. PrefRec uses the preferences to automatically train a reward function in an end-to-end manner. The reward function is then used to generate learning signals to train the recommendation policy. Furthermore, we design an effective optimization method for PrefRec, which uses an additional value function, expectile regression and reward model pre-training to improve the performance. Extensive experiments are conducted on a variety of long-term user engagement optimization tasks. The results show that PrefRec significantly outperforms previous state-of-the-art methods in all the tasks.
translated by 谷歌翻译
Product ranking is the core problem for revenue-maximizing online retailers. To design proper product ranking algorithms, various consumer choice models are proposed to characterize the consumers' behaviors when they are provided with a list of products. However, existing works assume that each consumer purchases at most one product or will keep viewing the product list after purchasing a product, which does not agree with the common practice in real scenarios. In this paper, we assume that each consumer can purchase multiple products at will. To model consumers' willingness to view and purchase, we set a random attention span and purchase budget, which determines the maximal amount of products that he/she views and purchases, respectively. Under this setting, we first design an optimal ranking policy when the online retailer can precisely model consumers' behaviors. Based on the policy, we further develop the Multiple-Purchase-with-Budget UCB (MPB-UCB) algorithms with $\~O(\sqrt{T})$ regret that estimate consumers' behaviors and maximize revenue simultaneously in online settings. Experiments on both synthetic and semi-synthetic datasets prove the effectiveness of the proposed algorithms.
translated by 谷歌翻译
基于深的神经网络(DNNS)基于合成孔径雷达(SAR)自动靶标识别(ATR)系统已显示出非常容易受到故意设计但几乎无法察觉的对抗扰动的影响,但是当添加到靶向物体中时,DNN推断可能会偏差。在将DNN应用于高级SAR ATR应用时,这会导致严重的安全问题。因此,增强DNN的对抗性鲁棒性对于对现代现实世界中的SAR ATR系统实施DNN至关重要。本文旨在构建更健壮的DNN基于DNN的SAR ATR模型,探讨了SAR成像过程的领域知识,并提出了一种新型的散射模型引导的对抗攻击(SMGAA)算法,该算法可以以电磁散射响应的形式产生对抗性扰动(称为对抗散射器) )。提出的SMGAA由两个部分组成:1)参数散射模型和相应的成像方法以及2)基于自定义的基于梯度的优化算法。首先,我们介绍了有效的归因散射中心模型(ASCM)和一种通用成像方法,以描述SAR成像过程中典型几何结构的散射行为。通过进一步制定几种策略来考虑SAR目标图像的领域知识并放松贪婪的搜索程序,建议的方法不需要经过审慎的态度,但是可以有效地找到有效的ASCM参数来欺骗SAR分类器并促进SAR分类器并促进强大的模型训练。对MSTAR数据集的全面评估表明,SMGAA产生的对抗散射器对SAR处理链中的扰动和转换比当前研究的攻击更为强大,并且有效地构建了针对恶意散射器的防御模型。
translated by 谷歌翻译
可靠且稳定的6D姿势估计不合作空间对象在轨道维修和清除碎片清除任务中起着至关重要的作用。考虑到姿势估计器对背景干扰很敏感,本文提出了一个名为CaspaceNet的反事实分析框架,以完成复杂背景下的Spaceborne目标的稳健6D姿势估计。具体而言,采用常规方法在事实情况下提取整个图像的特征。在反事实情况下,不存在无目标的图像,但只想想象背景。反事实分析降低了由背景干扰引起的副作用,从而导致最终结果中的预测无偏见。此外,我们还对Ca-paceNet进行了低位宽度量化,并将部分框架部署到FPGA上的内存加速器(PIM)加速器上。定性和定量结果证明了我们提出的方法的有效性和效率。据我们所知,本文首次将因果推理和网络量化应用于6D姿势估计太空源目标。该代码可在https://github.com/shunli-wang/ca-pacenet上获得。
translated by 谷歌翻译
最近,许多半监督的对象检测(SSOD)方法采用教师学生框架并取得了最新的结果。但是,教师网络与学生网络紧密相结合,因为教师是学生的指数移动平均值(EMA),这会导致表现瓶颈。为了解决耦合问题,我们为SSOD提出了一个周期自我训练(CST)框架,该框架由两个老师T1和T2,两个学生S1和S2组成。基于这些网络,构建了一个周期自我训练机制​​,即S1 $ {\ rightarrow} $ t1 $ {\ rightArow} $ s2 $ {\ rightArrow} $ t2 $ {\ rightArrow} $ s1。对于S $ {\ Rightarrow} $ T,我们还利用学生的EMA权重来更新老师。对于t $ {\ rightarrow} $ s,而不是直接为其学生S1(S2)提供监督,而是老师T1(T2)为学生S2(S1)生成伪标记,从而松散耦合效果。此外,由于EMA的财产,老师最有可能积累学生的偏见,并使错误变得不可逆转。为了减轻问题,我们还提出了分配一致性重新加权策略,在该策略中,根据教师T1和T2的分配一致性,将伪标记重新加权。通过该策略,可以使用嘈杂的伪标签对两个学生S2和S1进行训练,以避免确认偏见。广泛的实验证明了CST的优势,通过将AP比基线优于最先进的方法提高了2.1%的绝对AP改进,并具有稀缺的标记数据,而胜过了2.1%的绝对AP。
translated by 谷歌翻译
本文介绍了我们DFGC 2022竞赛的摘要报告。深层味道正在迅速发展,现实的面部折叠变得越来越欺骗性和难以检测。相反,检测深击的方法也正在改善。 Deepfake创作者和防守者之间有两党的比赛。这项竞赛提供了一个通用平台,用于基准在DeepFake创建和检测方法中当前最新的游戏之间的游戏。这场比赛要回答的主要研究问题是彼此竞争时两个对手的现状。这是去年DFGC 2021之后的第二版,具有新的,更多样化的视频数据集,更现实的游戏设置以及更合理的评估指标。通过这项竞争,我们旨在激发研究思想,以建立对深层威胁的更好的防御能力。我们还发布了我们的参与者和我们自己的DFGC 2022数据集,以丰富研究社区的DeepFake数据资源(https://github.com/nice-x/dfgc-2022)。
translated by 谷歌翻译
点击率(CTR)预测是推荐和广告系统中的基本技术。最近的研究证明,学习一个为多个领域服务的统一模型可有效提高整体性能。但是,在有限的培训数据下,改善跨领域的概括,并且由于其计算复杂性而难以部署当前解决方案仍然是一项挑战。在本文中,我们为多域CTR预测提出了一个简单而有效的框架ADASPARSE,该预测学习了每个域的适应性稀疏结构,从而在跨计算成本较低的域中实现了更好的概括。在Adasparse中,我们引入了域感知的神经元的加权因子来测量神经元的重要性,对于每个域而言,我们的模型可以修剪冗余神经元以改善概括。我们进一步添加了灵活的稀疏性正常,以控制学习结构的稀疏性比。离线和在线实验表明,ADASPARSE的表现高于先前的多域CTR模型。
translated by 谷歌翻译
地球观测卫星多年来一直在不同位置和具有不同模态的光谱带的地球环境中连续监测地球环境。由于复杂的卫星传感条件(例如,天气,云,大气,轨道),可能无法使用某些模式,乐队,位置和时间的观察。CVPR 2022 [1]中的多学历矩阵完成挑战提供了多模式卫星数据,用于以亚马逊雨林作为感兴趣的地区来解决此类数据稀疏挑战。这项工作提出了自适应的实时多模式回归和生成框架,并以0.2226的LPIP,123.0372的PSNR和0.6347的SSIM在这一挑战中在看不见的测试查询方面取得了出色的性能。
translated by 谷歌翻译
通过仅使用训练有素的分类器,模型内(MI)攻击可以恢复用于训练分类器的数据,从而导致培训数据的隐私泄漏。为了防止MI攻击,先前的工作利用单方面依赖优化策略,即,在培训分类器期间,最大程度地减少了输入(即功能)和输出(即标签)之间的依赖关系。但是,这样的最小化过程与最小化监督损失相冲突,该损失旨在最大程度地提高输入和输出之间的依赖关系,从而在模型鲁棒性针对MI攻击和模型实用程序上对分类任务进行明确的权衡。在本文中,我们旨在最大程度地减少潜在表示和输入之间的依赖性,同时最大化潜在表示和输出之间的依赖关系,称为双边依赖性优化(BIDO)策略。特别是,除了对深神经网络的常用损失(例如,跨渗透性)外,我们还将依赖性约束用作普遍适用的正常化程序,可以根据不同的任务将其实例化使用适当的依赖标准。为了验证我们策略的功效,我们通过使用两种不同的依赖性度量提出了两种BIDO的实施:具有约束协方差的Bido(Bido-Coco)(Bido-Coco)和Bido具有Hilbert-Schmidt独立标准(Bido-HSIC)。实验表明,比多(Bido防御MI攻击的道路。
translated by 谷歌翻译
由于缺乏可用的数据集,模型和标准评估指标,因此以多模式数据为条件的现实,生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题,我们构建了人体表达式 - aauio-Text数据集,Beat,它具有76小时,高质量的,高质量的多模式数据,这些数据从30位扬声器中捕获了八种不同的情绪,用四种不同的语言,ii)32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明,除了与音频,文本和说话者身份的已知相关性外,对话式手势与面部表情,情感和语义的相关性。基于此观察结果,我们提出了一个基线模型,即级联运动网络(CAMN),该模型由以上六种模式组成,该模式在级联的架构中建模以进行手势合成。为了评估语义相关性,我们引入了指标,语义相关性召回(SRGR)。定性和定量实验证明了指标的有效性,地面真相数据质量以及基线的最先进性能。据我们所知,BEAT是用于研究人类手势的最大运动捕获数据集,这可能有助于许多不同的研究领域,包括可控的手势合成,跨模式分析和情感手势识别。数据,代码和模型可在https://pantomatrix.github.io/beat/上获得。
translated by 谷歌翻译